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(57) Abstract: The invention relates to an operating method for an 
automated language recognizer intended for the speaker-indepen- 
dent language recognition of words (10) from different languages, 
particularly for recognizing names from different languages. Said 
method is based on a language defined as the mother tongue and has 
an input phase for establishing a language recognizer vocabulary. 

(57) Zusammenfassung: Die Erfmdung betrifft ein Be- 
triebsverfahren eines automatischen Spracherkenners zur 
sprecherunabhangigen Spracherkennung von Worten (10) aus 
verschiedenen Sprachen, insbesondere zur Erkennung von Namen 
aus verschiedenen Sprachen, das von einer als Muttersprache 
definierten Sprache ausgeht und eine Eingabephase zur Erstellung 
eines Spracherkenner-Vokabulars aufweist. 
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Betriebsverf ahren eines automatischen Spracherkenners zur 
sprecherunabhangigen Spracherkennung von Worten aus verschie- 
denen Sprachen und automatischer Spracherkenner 

Die Erfindung betrifft ein Betriebsverf ahren eines automati- 
schen Spracherkenners zur sprecherunabhangigen Spracherken- 
nung von Worten aus verschiedenen Sprachen gemali Patentan- 
spruch 1 und einen entsprechenden automatischen Spracherken- 
ner gemali Patentanspruch 6. 



15 



20 



25 



30 



Fur die phonembasierte Spracherkennung ist ein Spracherken- 
nungs-Vokabular erf orderlich, das die phonetischen Beschrei- 
bungen aller zu erkennender Worter umf afct . Dies ist eine 
Grundvorausset zung fur die phonembasierte Spracherkennung. 
Worter werden hierbei durch Phonemfolgen oder -ketten im Vo- 
kabular reprasentiert. Wahrend eines Spracherkennungs-Vor- 
gangs wird eine Suche nach dem besten Pfad durch die Phonem- 
folgen im Vokabular durchgef tihrt . Diese Suche kann beispiels- 
weise mit dem sogenannten Viterbi-Algorithmus erfolgen. Bei 
kontinuierlicher Spracherkennung konnen zudem die Wahrschein- 
lichkeiten fur Ubergange zwischen Wortern modelliert und in 
den Viterbi-Algorithmus einbezogen werden. 

Die phonetischen Umschriften fur die zu erkennenden Worter 
sind die Basis der phonembasierten Spracherkennung. Daher 
stellt sich zu Beginn des Einsatzes eines phonembasierten 
Spracherkenners immer die Frage, wie derartige phonetische 
Umschriften gewonnen werden konnen. Unter phonetischen Um- 
schriften werden hier die phonetischen Beschreibungen der 
Worter aus einem Zielvokabular verstanden. Insbesondere 
stellt sich diese Frage bei Wortern, die dem Spracherkenner 
nicht bekannt sind. 



35 



Bekannt sind Mobil- oder Schnurlostelef one, die eine spre- 
cherabhangige Namenswahl ermoglichen. Ein Benutzer eines der- 
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artigen Telefons mu£ hierzu die im elektronischen Telefonbuch 
des Telefons enthaltenen Eintrage trainieren, urn diese spater 
zur Namenswahl per Sprache nutzen zu konnen. Allerdings kann 
in der Regel kein anderer Benutzer dieses Feature nutzen, da 
die sprecherabhangige Namenswahl nur fur eine Person geeignet 
ist, namlich fur diejenige, welche die Sprachwahl trainiert 
hat. Um dieses Problem zu umgehen, kSnnen die Eintrage im 
elektronischen Telefonbuch in phonetische Umschrif ten umge- 
wandelt werden. 

Zum Ermitteln der phonetischen Umschrift aus einem geschrie- 
benen Wort, beispielsweise einem Telef onbucheintrag, sind un- 
terschiedliche Ansatze bekannt. Es sei hier beispielsweise 
auf die sogenannten Diktiersysteme, die im allgemeinen auf 
einem PC zur Ausftihrung kommen, verwiesen. Bei derartigen 
Diktiersystemen ist im Normalfall ein Lexikon von typischer- 
weise mehreren 10000 Wortern mit den Zuordnungen von Buchsta- 
benfolgen zu Phonemfolgen hinterlegt. Da ein solches Lexikon 
allerdings einen sehr hohen Speicherplatzbedarf aufweist, ist 
es fur mobile Endgerate wie beispielsweise Mobil- oder 
Schnurlostelefone nicht praktikabel. 

Bekannt sind auch Systeme, bei denen die Umsetzung eines Wor- 
tes. in dessen phonetische Umschrift regelbasiert oder durch 
speziell trainierte neuronale Netze erf olgt . Diese Verfahren 
besitzen wie das Lexikon den Nachteil, daJi festgelegt werden 
muli, in welcher Sprache die Phonemfolge realisiert werden 
soli. Allerdings konnen insbesondere in elektronischen Tele- 
fonbiichern Namen aus verschiedenen Sprachen vorhanden sein 
Erne Umsetzung ware dann mit dem oben beschriebenen Verfahren 
nicht oder nur unvollstandig moglich. 

Daher wurden sogenannte multilinguale Systeme zur Phonemket- 
tenermittlung und Spracherkennung entworfen. Diese Systeme 
erlauben die Erzeugung von Phonemketten aus verschiedenen 
Sprachen. 
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Schliefilich existiert noch eine andere Losung: Ein Benutzer 
spricht die Worte in ein Spracherkennungssystem ein, das dar- 
aus automatisch Phonemfolgen generiert. Bei grolien Wortschat- 
zen, aber auch schon bei einigen dutzend Wortern, wie bei- 
5 spielsweise bei einem elektronischen Telefonbuch mit 80 Ein- 
tragen, ist dies fur den Benutzer nicht mehr akzeptabel. 

Aufgabe der vorliegenden Erfindung ist es daher, ein Be- 
triebsverfahrens eines automatischen Spracherkenners zur 
10 sprecherunabhangigen Spracherkennung von Worten aus verschie- 
denen Sprachen sowie einen entsprechenden automatischen 
Spracherkenner vorzuschlagen, welche einfach zu implementie- 
ren sind, sich insbesondere zum Einsatz in mobilen Endgeraten 
eignen, und kostengunstig zu realisieren sind. 

15 

Diese Aufgabe wird durch ein Betriebsverf ahren mit den Merk- 
malen des Patentanspruchs 1 und durch einen automatischen 
Spracherkenner mit den Merkmalen des Patentanspruchs 6 ge- 
lost. 

20 

Der Erfindung liegt im wesentlichen die Idee zugrunde, phone- 
tische Umschriften von Wortern jeweils fur N-verschiedene 
Sprachen zu ermitteln, diese anschliefiend nachzuverarbeiten 
und einer phonembasierten einsprachigen Spracherkennung zuzu- 

25 fuhren. Diese Vorgehensweise beruht im wesentlichen auf der 

Erkenntnis, dafi ein Benutzer der Spracherkennung normalerwei- 
se in seiner Muttersprache spricht, Auch f remdsprachige Wor- 
ter, beispielsweise Namen, spricht er normalerweise mit einer 
"Muttersprachenfarbung",, also einem Akzent aus, die bzw. der 

30 durch einen sogenannten Muttersprachen-Spracherkenner grob 

modelliert werden kann- Das Betriebsverf ahren geht daher von 
einer als Muttersprache definierten Sprache aus. 

Jede Sprache lafit sich nun mit unterschiedlichen, der jewei- 
35 ligen Sprache eigenen Phonemen beschreiben. Bekanntermailen 

ahneln sich jedoch viele Phoneme verschiedener Sprachen. Ein 
Beispiel hierfur ist das "p" im englischen und deutschen. 
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Diese Tatsache wird bei der multilingualen Spracherkennung 
ausgenutzt. Fur ein Ensemble von Sprachen wird hier ein ein- 
ziges Hidden-Mar kov-Modell erstellt, mit dem simultan mehrere 
Sprachen erkannt werden kdnnen. Allerdings ftihrt dies zu ei- 
5 nem sehr grolien Hidden-Markov-Modell, das eine niedrigere Er- 
kennungsrate als ein einsprachiges Hidden-Markov-Modell be- 
sitzt. Zudem mufi bei einer Erweiterung des Ensembles von 
Sprachen urn beispielsweise eine weitere Sprache ein neues 
Hidden-Markov-Modell erstellt werden, was sehr aufwendig ist. 
10 Dies wird mit der Erfindung vermieden. 

ErfindungsgemaJi werden in einem ersten Schritt der Eingabe- 
phase zur Erstellung eines Spracherkenner-Vokabulars eines 
Betriebsverfahrens eines automatischen Spracherkenners zur 
15 sprecherunabhangigen Spracherkennung von Worten aus verschie- 
denen Sprachen, insbesondere von Erkennung von Namen aus ver- 
schiedenen Sprachen, die phonetischen Umschriften von Wortern 
jeweils fur N-verschiedene Sprachen ermittelt, urn pro Wort N- 
erste Phonemfolgen entsprechend N-ersten Aussprachevarianten 
20 zu erhalten. In einem zweiten Schritt werden die Ahnlichkei- 
ten zwischen den Sprachen ausgenutzt. Hierzu wird eine Abbil- 
dung der Phoneme jeder Sprache auf den jeweiligen Phonemsatz 
der Muttersprache implementiert . Ferner wird in einem dritten 
Schritt die implementierte Abbildung auf die im ersten 
5 Schritt ermittelten N-ersten Phonemfolgen fur jedes Wort an- 
gewandt. Dadurch werden pro Wort N-zweite Phonemfolgen ent- 
sprechend N-zweiten Aussprachevarianten erhalten. Mit dem 
Muttersprachen-Spracherkenner kann dann bereits eine Anzahl 
N-verschiedener Sprachen nach Erstellen eines Spracherkenner- 
0 Vokabulars mit den im vorhergehenden Schritt erhaltenenen N- 
zwexten Phonemfolgen pro Wort fur den Muttersprachen-Sprach- 
erkenner erkannt werden. 

Die Erfindung hat im wesentlichen die folgenden Vorteile- 
5 Wahrend ein Look-up-Verf ahren in einem Lexikon bei mobilen 
Endgeraten wegen des grofien Speicherplatzbedarf s scheitert 
und bex der multilingualen Spracherkennung, die fur einen 
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Satz von Sprachen optimiert wurde, fur jede neue Sprache neue 
Hidden-Markov-Modelle erstellt und optimiert werden mQssen, 
wird durch die Grapheme / Phoneme -Konvers ion in mehrere Spra- 
chen gemafi der Erfindung ein multilinguales System geschaf- 
fen, das mit relativ einfachen Mitteln zu implementieren ist, 
sich daher vor allem zum Einsatz in mobilen Endgeraten eignet 
und nicht zuletzt kostengunstig zu realisieren ist. Fiir die 
Erfindung ist neben der Graphem-zu-Phonem-Umwandlung im we- 
sentlichen nur noch ein Mapping, d. h. ein Abbilden zwischen 
den einzelnen Sprachen - wie oben erlautert - erf orderlich. 
Die Phonemfolgen-Ermittlung und das anschliefiende Mapping 
bzw. Abbilden laufen normalerweise "offline" auf einem Gerat 
ab, beispielsweise einem Mobiltelef on, einem Personal Digital 
Assistant oder Personal Computer mit entsprechender Software, 
15 und sind daher zeitunkritisch. Die hierfiir bendtigten Res- 

sourcen kdnnen in einem langsamen externen Speicher unterge- 
bracht werden. 



10 



20 



Da das mit dem oben beschriebenen Verfahren erstellte Sprach- 
erkenner-Vokabular jedoch fiir jedes Wort N-Aussprachevarian- 
ten umfafJt, ist der Suchaufwand bei der Spracherkennung grofi. 
Um ihn zu verringern, kann ein weiterer Schritt in das Ver- 
fahren eingefiihrt werden, der noch vor dem Erstellen des 
Spracherkenner-Vokabulars und nach dem Erzeugen der N-zweiten 
25 Phonemfolgen pro Wort ausgefiihrt wird. In diesem Schritt wer- 
den die N-zweiten Phonemfolgen entsprechend den N-zweiten 
Aussprachevarianten jedes Wort bearbeitet, indem jede zweite 
Phonemfolge mittels geeigneter Distanzen, insbesondere der 
Levenshtein-Distanz, analysiert und klassif iziert wird, und 
30 die N-zweiten Phonemfolgen jedes Wortes auf wenige, vorzugs- 
weise zwei bis drei, Phonemfolgen reduziert werden, insbeson- 
dere indem die Aussprachevarianten weggelassen werden, die 
der Aussprachevariante der Muttersprache am wenigsten ahnlich 
sind. Vereinfacht ausgedriickt werden durch diese Reduzierung 
35 die weniger wichtigen Aussprachevarianten weggelassen, wo- 
durch sich der Suchaufwand bei der Spracherkennung verrin- 
gert . 
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Eine weitere Aufwandsreduktion laJit sich erreichen, indem vor 
dem ersten Schritt eine Sprachidentif ikation und -reduktion 
vorgenommen wird. Im Rahmen dieser Sprachidentif ikation wird 
fur jedes zu erkennende Wort die Wahrscheinlichkeit der Zuge- 
horigkeit zu jeder der N-verschiedenen Sprachen bestimmt. An- 
hand des Ergebnisses dieser Sprachidentif ikation wird die An- 
zahl der im ersten Verf ahrensschritt zu verarbeitenden Spra- 
chen, vorzugsweise auf zwei bis drei verschiedene Sprachen, 
reduziert. Diese Sprachreduktion erfolgt vorzugsweise, indem 
die Sprachen mit der geringsten Wahrscheinlichkeit nicht wei- 
terverarbeitet werden. Fur ein bestimmtes Wort kann das Er- 
gebnis der Sprachidentif ikation beispielsweise wie folgt lau- 
ten: "Deutsch 55%, UK-Englisch 16%, US-Englisch 14%, Schwe- 
disch 3%, . . . " . Bereits nach diesem Ergebnis kann auf drei 
verschiedene Sprachen reduziert werden, indem Schwedisch weg- 
gelassen, d. h. nicht weiterverarbeitet wird. 

Das Ermitteln der phonetischen Umschriften im ersten Verfah- 
rensschritt erfolgt vorzugsweise durch mindestens ein neuro- 
nales Netz. Neuronale Netze haben sich zum Ermitteln phoneti- 
scher Umschriften aus geschriebenen Worten bewahrt, da sie 
gute Ergebnisse hinsichtlich der Genauigkeit und vor allem 
Verarbeitungsgeschwindigkeit liefern sowie einfach, insbeson- 
dere in Software implementierbar sind. 

Als Muttersprachen-Spracherkenner kann insbesondere ein Hid- 
den-Markov-Modell zum Einsatz kommen, das fur die als Mutter- 
sprache definierte Sprache erstellt worden ist. 

Die Erfindung betrifft ferner einen Spracherkenner zur spre- 
cherunabhangigen Spracherkennung von Worten aus verschiedenen 
Sprachen, insbesondere zur Erkennung von Namen aus verschie- 
denen Sprachen. Hierbei ist eine der verschiedenen Sprachen 
als Muttersprache definiert. Der Spracherkenner umfafit 
- einen Muttersprachen-Spracherkenner , 
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- ein erstes Verarbeitungsmodul zum Ermitteln der phoneti- 
schen Umschriften von Wortern jeweils fur N-verschiedene 
Sprachen, urn pro Wort N-erste Phonemf olgen entsprechend N- 
ersten Aussprachevarianten zu erhalten, 

5 - ein zweites Verarbeitungsmodul zum Implementieren einer Ab- 
bildung der Phonem jeder Sprache auf dem jeweiligen Phonem- 
satz der Muttersprache, 

- ein drittes Verarbeitungsmodul zum Anwenden der mit dem 
zweiten Verarbeitungsmodul implement iert en Abbildung auf die 

10 mit dem ersten Verarbeitungsmodul ermittelten N-ersten Pho- 
nemf olgen fur jedes Wort, wodurch pro Wort N-zweite Phonem- 
folgen entsprechend N-zweiten Aussprachevarianten erhalten 
werden, die mit dem Muttersprachen-Spracherkenner erkannt 
werden konnen und 

15 - ein viertes Verarbeitungsmodul zum Erstellen eines Sprach- 
erkenner-Vokabulars mit den durch das dritte Verarbeitungsmo- 
dul erhaltenen N-zweiten Phonemfolgen pro Wort fur den Mut- 
tersprachen-Spracherkenner . 

20 In einer bevorzugten Ausf uhrungsf orm umfafit der automatische 
Spracherkenner ein funftes Verarbeitungsmodul zum Bearbeiten 
der N-zweiten Phonemfolgen entsprechend den N-zweiten Aus- 
sprachevarianten jedes Wortes. Das funfte Verarbeitungsmodul 
ist derart ausgebildet, daft jede zweite Phonemf olge mittels 

25 geeigneter Distanzen, insbesondere der Levenshtein-Distanz, 
analysiert und klassif iziert wird, und die N-zweiten Phonem- 
folgen jedes Wortes auf wenige, vorzugsweise zwei bis drei, 
Phonemfolgen reduziert werden. 

30 Ferner kann der automatische Spracherkenner einen Sprachiden- 
tifikator und einen Sprachreduzierer umfassen. Der Sprachi- 
dentifikator ist vor das erste Verarbeitungsmodul geschaltet 
und bestimmt fur jedes zu erkennende Wort die Wahrscheinlich- 
keit der Zugehorigkeit zu jeder der N-verschiedenen Sprachen. 

35 Der Sprachreduzierer reduziert die Anzahl der vom ersten Ver- 
arbeitungsmodul zu verarbeitenden Sprachen, vorzugsweise auf 
zwei bis drei verschiedene Sprachen, indem die Sprachen mit 
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der geringsten Wahrscheinlichkeit nicht weiterverarbeitet 
werden. Sprachidentif iJcator und Sprachreduzierer verringern 
sowohl den Verarbeitungsaufwand des automatischen Spracher- 
kenners sowohl in der Eingabephase als auch in der Erken- 
nungsphase betrachtlich. 

Vorzugsweise weist das erste Verarbeitungsmodul mindestens 
ein neuronales Netz zum Ermitteln der phonetischen Umschrif- 
ten auf. 

Schliefilich weist der Muttersprachen-Spracherkenner in einer 
bevorzugten Ausf iihrungsf orm ein Hidden-Markov-Modell auf, das 
fur die als Muttersprache definierte Sprache erstellt worden 
ist . 

Vorteile und ZweckmaJligkeiten der Erfindung ergeben sich im 
iibrigen aus der nachf olgenden Beschreibung eines Ausfuhrungs- 
beispiels der Erfindung anhand der einzigen Figur. Diese 
zeigt ein schematisches Ablauf diagramm der Eingabephase zur 
Erstellung eines Spracherkenner-Vokabulars gemafc der Erfin- 
dung. 



Es soil die sprecherabhangige Namenswahl auf einem Mobiltele- 
fon mit den Namen aus dem Telefonbuch fur einen deutschspra- 
chigen Benutzer realisiert werden. In dem Telefonbuch befin- 
den sich neben uberwiegend deutschsprachigen Namen auch eini- 
ge fremdsprachige Namen. Ein Umsetzer fur die graphemische 
Darstellung der Namen ist auf die Sprachen Deutsch, Italie- 
nisch, Tschechich, Griechisch, Turkisch eingestellt, insge- 
30 samt als N = 5 verschiedene Sprachen. 

In einem Anf angsschritt SO wird eine Sprachidentif ikation der 
zugeftihrten Worte 10 bzw. Eintrage des Telefonbuchs vorgenom- 
men. Genauer gesagt wird jedes einzelne Wort auf die Wahr- 
35 scheinlichkeit der Zugehorigkeit zu einer der funf Sprachen 
analysrert. Wird beispielsweise ein deutscher Name verarbei- 
tet, so wird die Wahrscheinlichkeit fur Deutsch sehr hoch 
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sein, fur die anderen vier Sprachen, namlich Italienisch, 
Tschechisch, Griechisch und Turkisch dagegen sehr viel nied- 
riger. Anhand der. pro Wort ermittelten Wahrscheinlichkeiten 
wird die Sprache mit der geringsten Wahrscheinlichkeit fur 
5 die weitere Verarbeitung weggelassen. Das bedeutet, dafi im 
nachfolgenden Verarbeitungsgang nur noch vier f anstatt fiinf 
Sprachen verarbeitet werden mussen. 

In einem ersten Verf ahrensschritt SI wird fur jedes Wort die 
10 phonetische Umschrift fur jede der vier verschiedenen Spra- 
chen ermittelt. Dadurch werden fur jedes Wort vier Phonemf ol- 
gen entsprechend vier ersten Aussprachevarianten erhalten. 

In einem zweiten Verf ahrensschritt S2 wird anschlieliend eine 
15 Abbildung der Phoneme jeder der vier Sprachen auf den jewei- 
ligen Phonemsatz der Mutter sprache implement iert . 

Diese Abbildung wird in einem dritten Verf ahrensschritt S3 
auf die im ersten Verf ahrensschritt SI erhaltenen vier ersten 
2 0 Phonemf olgen 12 angewandt. Hierdurch werden fur jedes Wort 
vier zweite Phonemf olgen 14 entsprechend vier zweiten Aus- 
sprachevarianten erhalten. Die vier zweiten Phonemf olgen 14 
konnen bereits mit einem Muttersprachen-Spracherkenner er- 
kannt werden. 

25 

Urn allerdings den Verarbeitungsauf wand fur den Spracherkenner 
weiter zu reduzieren, wird pro Wort jede zweite Phonemf olge 
mittels der Levenshtein-Distanz analysiert und klassif iziert 
(Schritt S4) . Anschlieliend folgt ein fiinf ter Verfahrens- 
30 schritt S5, in dem die analysierten und klassif izierten zwei- 
ten Phonemfolgen pro Wort auf drei Phonemfolgen reduziert 
werden . 

Schliefilich wird in einem letzten Schritt S6 ein Spracherken- 
35 ner-Vokabular mit dem in dem ftinften Verf ahrensschritt S5 er- 
haltenen drei zweiten Phonemfolgen pro Wort fur den Mutter- 
sprachen-Spracherkenner erstellt. Durch die nochmalige Reduk- 
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tion der Phonemf olgen im ftinften Verf ahrensschritt S5 wird 
also das zu speichernde und wahrend einer Spracherkennung zu 
durchsuchende Spracherkenner-Vokabular merklich reduziert. 
Dies bringt in einer praktischen Anwendung der Spracherken- 
nung einerseits den Vorteil eines geringeren Speicherplatzbe- 
darfs und andererseits einer schnelleren Verarbeitung, da ein 
kleineres Vokabular durchsucht werden mutt . 

Nach Ablauf des beschriebenen Verfahrens kann der Benutzer 
mittels Spracherkennung eine Namenswahl, also den sprachge- 
steuerten Aufruf gespeicherter Rufnummern uber den Namen des 
Teilnehmers vornehmen, ohne dafi er den Namen des zu riifenden 
Teilnehmers explizit einmal vorsprechen, also trainieren, 
mutt . 



Im folgenden wird kurz erlautert, was der Benutzer des Mobil- 
telefons zur Verbesserung der Spracherkennung tun kann. Soll- 
te er einmal feststellen, datt ein bestimmter Name nicht gut 
erkannt wird, kann er das Spracherkenner-Menti seines Mobilte- 
lefons aufrufen und dort die Anwendung "Namenswahl" auswah- 
len. Dnter dieser Anwendung kann ihm nun eine oder auch meh- 
rere Moglichkeiten angeboten werden, urn die Spracherkennung 
ernes bestimmten Wortes, genauer gesagt eines bestimmten Na- 
mens aus dem elektronischen Telefonbuch des Mobiltelef ons zu 
verbessern. Im folgenden werden beispielhaft einige dieser 
Moglichkeiten kurz erlautert: 

1. Der Benutzer kann das schlecht oder gar nicht erkannte 
Wort nochmals in das Mobiltelefon einsprechen und anschlie- 
Bend durch den im Mobiltelefon enthaltenen Spracherkenner in 
erne Phonemf olge umsetzen lassen. In diesem Fall werden vor- 
her automatisch ermittelte Aussprachevarianten ganz oder 
teilweise, je nachdem welche Nahe sie zu der neu ermittelten 
Phonemfolge besitzen, aus dem Vokabular des Spracherkenners 
entfernt. 



WO 03/060877 




PCT/EP03/00003 



2. Alternativ kann sich der Benutzer auf dem Display des Mo- 
biltelefons eine Art Lautschrift des schlecht oder gar nicht 
erkannten Eintrags des elektronischen Telefonbuchs anzeigen 
lassen. Die Art Lautschrift kann der Benutzer dann bei Nicht- 

5 zutreffen, d. h. bei schlechter Obereinstimmung mit seiner 
Aussprache, editieren. Beispielsweise kann durch die automa- 
tische Umsetzung des Eintrags "Jacques Chirac" als Laut- 
schrift "Jakwes Schirack" gespeichert sein. Erscheint nun dem 
Benutzer diese Lautschrift als fehlerhaft, kann er sie mit- 
10 tels seines Mobiltelef ons editieren, beispielsweise zu 

"Schack Schirack". Anschlieliend kann das System dazu die pho- 
netische Beschreibung ermittelt und diese ins Spracherkenner- 
Vokabular neu aufnehmen. Damit sollte die automat ische 
Spracherkennung zuverl&ssig f unktionieren . 

15 

3, Schliefilich kann der Benutzer durch eine explizite Angabe 
der Sprache, aus der ein fehlerhaft oder gar nicht erkannter 
Name stammt oder durch explizite Auswahl einer bestiinmten 
Sprache ftir einen bestimmten Namen die Erkennung wesentlich 

20 verbessern. In einem derartigen Fall werden alle Aussprache- 
varianten fur den Namen aus dem Spracher kenner-Vokabular ent- 
femt, die nicht der explizit angegeben Sprache zugeordnet 
sind. 

Die Erfindung kann auch vorteilhaft in anderen mobilen Gera- 
ten aufler einem Mobiltelef on z. B. einem Personal Assistant 
oder auch einem Personal Computer verwendet, d. h. eingesetzt 
werden. 



WO 03/060877 



12 



PCT/EP03/00003 



Patentanspruche 

1. Betriebsverf ahren eines automat ischen Spracherkenners zur 
sprecherunabhangigen Spracherkennung von Worten (10) aus ver- 

5 schiedenen Sprachen, insbesondere zur Erkennung von Namen aus 
verschiedenen Sprachen, das von einer als Muttersprache defi- 
nierten Sprache ausgeht und eine Eingabephase zur Erstellung 
eines Spracherkenner-Vokabulars mit den folgenden Schritte 
aufweist : 

10 (a) Ermitteln der phonetischen Umschriften von Wortern je- 
wel Is fur N verschiedene Sprachen , urn pro Wort N erste Pho- 
nemfolgen (12) entsprechend N ersten Aussprachevarianten zu 
erhalten (SI) , 

(b) Implementieren einer Abbildung der Phoneme jeder Sprache 
15 auf den jeweiligen Phonemsatz der Muttersprache (S2) , 

(cl) Anwenden der in Schritt (b) implementierten Abbildung 
auf die in Schritt (a) ermittelten N ersten Phonemf olgen (12) 
fur jedes Wort, wodurch pro Wort N zweite Phonemf olgen (14) 
entsprechend N zweiten Aussprachevarianten erhalten werden, 
20 die mit einem Muttersprachen-Spracherkenner erkannt werden 
konnen (S3) , und 

(d) Erstellen eines Spracherkenner-Vorkabulars mit den im 
vorhergehenden Schritt erhaltenen N zweiten Phonemfolgen pro 
Wort fur den Muttersprachen-Spracherkenner (S6) . 

25 

2. Betriebsverf ahren nach Anspruch 1, 

ferner gekennzeichnet durch die folgenden, vor dem Schritt 
(d) und nach dem Schritt (cl) auszuf Uhrenden Schritte: 
(c2) Bearbeiten der N zweiten Phonemfolgen (14) entsprechend 
30 den N zweiten Aussprachevarianten jedes Wortes, indent 

(c21) jede zweite Phonemf olge (14) mittels geeigneter Distan- 

zen, insbesondere der Levenshtein-Distanz, analysiert und 

klassif iziert wird (S4), und 

(c22) die N zweiten Phonemfolgen jedes Wortes auf wenige, 
35 vorzugsweise 2 bis 3, Phonemfolgen reduziert werden (S5) . 
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3. Betriebsverfahren nach Anspruch 1 oder 2, 
dadurch gekennzeichnet , dass 

vor dem Schritt (a) eine Sprachidentif ikation vorgenommen 
wird, durch die fur jedes zu erkennende Wort die Wahrschein- 
5 lichkeit der ZugehSrigkeit zu jeder der N verschiedenen Spra 
chen bestiramt wird, und anhand des Ergebnisses der Sprach- 
identif ikation die Anzahl der in Schritt (a) zu verarbeiten- 
den Sprachen, vorzugsweise auf 2 bis 3 verschiedene Sprachen 
reduziert werden, indem die Sprachen mit der geringsten Wahr 
10 scheinlichkeit nicht weiter verarbeitet werden (SO) . 

4. Betriebsverfahren nach einem der Anspriiche 1 bis 3, 
dadurch gekennzeichnet, dass 

das Ermitteln der phonetischen Umschriften in Schritt (a) 
15 durch mindestens ein neuronales Netz erfolgt. 

5. Betriebsverfahren nach einem der Anspriiche 1 bis 4, 
dadurch gekennzeichnet, dass 

als Muttersprachen-Spracherkenner ein Hidden-Markov-Modell 
20 eingesetzt wird, das fur die als Muttersprache definierte 
Sprache erstellt worden ist. 

6. Automatischer Spracherkenner zur sprecherunabhangigen 
Spracherkennung von Worten aus verschiedenen Sprachen, insbe 

25 sondere zur Erkennung von Namen aus verschiedenen Sprachen, 
wobei eine der verschiedenen Sprachen als Muttersprache defi 
niert ist, mit 

- einem Muttersprachen-Spracherkenner, 

- einem ersten Verarbeitungsmodul zum Ermitteln der phoneti- 
30 schen Umschriften von Wortern jeweils fur N verschiedene 

Sprachen, urn pro Wort N erste Phonemfolgen entsprechend N 
ersten Aussprachevarianten zu erhalten, 

- einem zweiten Verarbeitungsmodul zum Implementieren einer 
Abbildung der Phoneme jeder Sprache auf den jeweiligen Pho- 

35 nemsatz der Muttersprache, 

- einem dritten Verarbeitungsmodul zum Anwenden der mit dem 
zweiten Verarbeitungsmodul implement iert en Abbildung auf die 
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mit dem ersten Verarbeitungsmodul ermittelten N ersten Pho- 
nemfolgen fur jedes Wort, wodurch pro Wort N zweite Phonem- 
folgen entsprechend N zweiten Aussprachevarianten erhalten 
werden, die mit dem Muttersprachen-Spracherkenner erkannt 
werden konnen, und 

- einem vierten Verarbeitungsmodul zum Erstellen eines 
Spracherkenner-Vorkabulars mit den durch das dritte Verarbei- 
tungsmodul erhaltenen N zweiten Phonemfolgen pro Wort fur den 
Muttersprachen-Spracherkenner . 

7. Automatischer Spracherkenner nach Anspruch 6, 
gekennzeichnet durch 

ein funftes Verarbeitungsmodul zum Bearbeiten der N zweiten 
Phonemfolgen entsprechend den N zweiten Aussprachevarianten 
jedes Wortes, das derart ausgebildet ist, dass jede zweite 
Phonemfolge mittels geeigneter Distanzen, insbesondere der 
Levenshtein-Distanz, analysiert und klassif iziert wird, und 
die N zweiten Phonemfolgen jedes Wortes auf wenige, vorzugs- 
weise 2 bis 3, Phonemfolgen reduziert werden. 

8. Automatischer Spracherkenner nach Anspruch 6 oder 7, 
gekennzeichnet durch 

einen Sprachidentif ikator , der vor das erste Verarbeitungsmo- 
dul geschaltet ist und fur jedes zu erkennende Wort die Wahr- 
scheinlichkeit der Zugehorigkeit zu jeder der N verschiedenen 
Sprachen bestimmt, und einen Sprachreduzierer, der die Anzahl 
der vom ersten Verarbeitungsmodul zu verarbeitenden Sprachen, 
vorzugsweise auf 2 bis 3 verschiedene Sprachen, reduziert 
werden, indem die Sprachen mit der geringsten Wahrscheinlich- 
keit nicht weiter verarbeitet werden. 

9. Automatischer Spracherkenner nach einem der Anspruche 6 
bis 8, 

dadurch gekennzeichnet, dass 

das erste Verarbeitungsmodul mindestens ein neuronales Netz 
zum Ermitteln der phonetischen Umschriften aufweist. 
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10. Automatischer Spracherkenner nach einem der Anspruche 6 
bis 9, 

dadurch gekennzeichnet , dass 

der Muttersprachen-Spracherkenner ein Hidden-Markov-Modell 
5 aufweist, das fur die als Muttersprache definierte Sprache 
erstellt worden ist. 

11. Verwendung des Betriebsverf ahrens nach einem der Anspru- 
che 1 bis 5 und des automatischen Spracherkenners nach einem 

10 der Anspruche 6 bis 10 in einem mobilen Gerat wie einem Mo- 
biltelefon, Personal Digital Assistant oder einem Personal 
Computer. 
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